机器学习中的概统知识

您所在的位置:网站首页 generating function概统 机器学习中的概统知识

机器学习中的概统知识

2023-10-27 09:43| 来源: 网络整理| 查看: 265

目录 1. 随机变量2. 累计概率密度函数与概率密度函数2.1 累计概率密度函数2.2 概率密度函数 3.常见分布3.1 离散型3.2 连续型 4.多元分布4.1 二元分布4.2 多元分布4.2 边缘分布4.3 独立性4.3 条件分布 5.随机变量的变换5.1 两个随机变量5.2 多个随机变量 上一小节介绍了部分什么是概率,并简单介绍了通过不同概率之间关系来计算概率的方法。同时也举了一些简单随机试验计算概率的例子。那么对于较为普遍的随机试验要如何计算或者用数学语言来表达概率呢?首先,要用数学语言来刻画一个随机试验,于是便引出来了随机变量。进而,通过研究随机变量的概率来探究一个随机试验的规律。可以说随机变量是近代概率论的基石,这也是本文以随机变量命名的原因。本文会从随机变量开始,依次介绍:离散型\连续型,单维\多维,随机变量的累计概率密度函数以及累计概率密度函数;还会介绍随机变量的变换;以及一些重要的随机变量的分布。

1. 随机变量

在上一章节中,详细介绍了事件和概率,这一章将着重介绍随机变量。随机变量在概率统计中几乎占据着基石的地位,所以理解随机变量也是学习概率统计的重中之重。那么什么是随机变量呢?很多读者估计对随机变量都有一个感性的理解,一般会视作一个随机数,但却难以用准确的语言描述出来。随机变量的定义如下: 定义 随机变量本质是一种从样本空间到实数的映射: X : Ω → R X:\Omega \rightarrow \mathbb{R} X:Ω→R该映射对于每一个输入的 ω \omega ω赋予了一个实值 X ( ω ) X(\omega) X(ω)。换句话说,设 Ω \Omega Ω为一个试验的样本空间,如果对每一个样本点 ω ∈ Ω \omega \in \Omega ω∈Ω,规定一个实数 X ( ω ) X(\omega) X(ω),这样就定义了一个定义域为 Ω \Omega Ω的实值函数 X = X ( ω ) X=X(\omega) X=X(ω),称X为随机变量,一般用大写的 X , Y , Z X,Y,Z X,Y,Z等表示。 例1.1 如抛一枚硬币5次,令 X ( ω ) X(\omega) X(ω)表示正面出现的次数。假设 ω \omega ω的结果为“正反正正正”,则 X ( ω ) = 4 X(\omega)=4 X(ω)=4。整个样本空间存在的样本点数有 2 5 = 32 2^{5}=32 25=32个,而 X ( ω ) X(\omega) X(ω)的取值有“0,1,2,3,4,5”六种,所以 X ( ω ) X(\omega) X(ω)是一个32到6的离散映射。 例1.2 如某品牌的空调随机抽取一只做寿命试验,记录其寿命(单位:h),则 Ω = { ω ∣ ω ≥ 0 } \Omega=\{\omega|\omega \geq 0\} Ω={ω∣ω≥0}。假设 X ( ω ) X(\omega) X(ω)表示该洗衣机的寿命,则 X ( ω ) X(\omega) X(ω)是一个连续型恒等映射。 根据上述的例子,可以观察到随机变量有以下两个特性: 1. 定义域是样本空间而不是数集; 2. 随机变量的取值具有随机性,在试验前无法确定其取值; 3. 随机变量的举止具有一定概率。

为什么要引入随机变量? 随机变量的引入,把对随机试验统计规律性的研究变成了对随机变量的研究。可以借助随机变量来刻画事件, G G G是一个数集,用 { ω ∣ X ( ω ) ∈ G } \{\omega|X(\omega) \in G\} {ω∣X(ω)∈G}来表示随机变量取值在 G G G中的样本点构成的事件,记这一事件为 X ∈ G X \in G X∈G。因而求该事件的概率就可以直接求 P ( X ∈ G ) P(X \in G) P(X∈G)。

2. 累计概率密度函数与概率密度函数 2.1 累计概率密度函数

累计概率密度函数是用来描述随机变量取值在某个子集的概率,又名为分布函数(CDF: Cumulative Density Function)。在学习概率密度函数之前,用分布函数一词更利于理解。直观上,可以理解分布函数为,随机变量分布在某一区间上的可能性。数学上,定义如下: 给定随机变量X,定义其累计概率密度函数如下: F X ( x ) = P ( X ≤ x )         x ∈ R F_{X}(x)=P(X \leq x)    x \in \mathbb{R} FX​(x)=P(X≤x)    x∈R称 F X ( x ) F_{X}(x) FX​(x)为随机变量X的分布函数。

为什么要这样定义分布函数呢? 上一节中已经提到对于某一试验的某一事件的概率计算可以转换为求 P ( X ∈ G ) P(X \in G) P(X∈G)。而对于 X ∈ G X \in G X∈G一般可以表示为 a < X ≤ b ax1​,x2​,…},则X是离散的,定义X的概率密度函数为 f X ( x ) = P ( X = x ) f_{X}(x)=P(X=x) fX​(x)=P(X=x)又称概率函数。 例 2.3 随机掷两枚硬币,令X表示正面朝上的朝上的次数,则其概率密度函数为: f X ( x ) = { 1 4 , x = 0 , 1 2 , x = 1 , 1 4 , x = 2 , 0 , 其 他 . f_{X}(x) = \begin{cases} \frac{1}{4},\quad x = 0,\\ \frac{1}{2}, \quad x =1, \\ \frac{1}{4}, \quad x =2 ,\\ 0, \quad 其他. \\ \end{cases} fX​(x)=⎩⎪⎪⎪⎨⎪⎪⎪⎧​41​,x=0,21​,x=1,41​,x=2,0,其他.​跟据对离散型随机变量的概率密度函数的计算,我们可以较为容易地得到其概率密度函数.

离散型的概率密度函数具有以下性质: 1. f ( x ) ≥ 0 ,   x ∈ { x 1 , x 2 , …   } f(x) \geq 0, x \in \{x_{1},x_{2},\dots\} f(x)≥0, x∈{x1​,x2​,…}; 2. ∑ f ( x ) = 1 \sum f(x) =1 ∑f(x)=1. 上述两个性质比较容易理解,证明从略。

对于连续型随机变量以及其概率密度函数的定义如下: 如果存在某个函数 f X f_{X} fX​对所有x有 f X ( x ) ≥ 0 f_{X}(x) \geq 0 fX​(x)≥0, ∫ − ∞ + ∞ f X ( x ) d x = 1 \int_{-\infty}^{+\infty}f_{X}(x) {\rm d} x=1 ∫−∞+∞​fX​(x)dx=1并且对任意 a ≤ b a \leq b a≤b有 P ( a < X < b ) = ∫ a b f X ( x ) d x P(a



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3